Loan Characteristics 拍拍贷标的特征分析 by Alex Niu

加载拍拍贷 Loan Characteristics 数据集

单变量绘图选择

## [1] 328553     21
## 'data.frame':    328553 obs. of  21 variables:
##  $ ListingId       : int  126541 133291 142421 149711 152141 162641 171191 175451 182261 193831 ...
##  $ 借款金额        : int  18000 9453 27000 25000 20000 20000 3940 20000 25000 10475 ...
##  $ 借款期限        : int  12 12 24 12 6 12 6 12 12 6 ...
##  $ 借款利率        : num  18 20 20 18 16 14 18 18 16 18 ...
##  $ 借款成功日期    : Factor w/ 756 levels "2015-01-01","2015-01-02",..: 119 70 477 84 22 79 172 439 75 100 ...
##  $ 初始评级        : Factor w/ 6 levels "A","B","C","D",..: 3 4 5 3 3 1 5 2 2 3 ...
##  $ 借款类型        : Factor w/ 4 levels "电商","普通",..: 3 3 2 3 1 2 1 2 3 1 ...
##  $ 是否首标        : Factor w/ 2 levels "否","是": 1 1 1 1 1 1 1 1 1 1 ...
##  $ 年龄            : int  35 34 41 34 24 36 27 32 33 25 ...
##  $ 性别            : Factor w/ 2 levels "男","女": 1 1 1 1 1 1 2 1 2 1 ...
##  $ 手机认证        : Factor w/ 2 levels "成功认证","未成功认证": 1 2 1 1 1 1 1 1 1 1 ...
##  $ 户口认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 1 2 1 1 1 1 1 2 1 ...
##  $ 视频认证        : Factor w/ 2 levels "成功认证","未成功认证": 1 2 2 1 1 1 1 1 1 1 ...
##  $ 学历认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
##  $ 征信认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
##  $ 淘宝认证        : Factor w/ 2 levels "成功认证","未成功认证": 2 2 2 2 2 2 2 2 2 2 ...
##  $ 历史成功借款次数: int  11 4 5 6 13 7 15 7 7 9 ...
##  $ 历史成功借款金额: num  40326 14500 21894 36190 77945 ...
##  $ 总待还本金      : num  8713 7891 11726 9703 0 ...
##  $ 历史正常还款期数: int  57 13 25 41 118 56 75 52 41 49 ...
##  $ 历史逾期还款期数: int  16 1 3 1 14 0 8 0 2 4 ...
##    ListingId           借款金额         借款期限        借款利率   
##  Min.   :  126541   Min.   :   100   Min.   : 1.00   Min.   : 6.5  
##  1st Qu.:11908871   1st Qu.:  2033   1st Qu.: 6.00   1st Qu.:20.0  
##  Median :19523251   Median :  3397   Median :12.00   Median :20.0  
##  Mean   :19079479   Mean   :  4424   Mean   :10.21   Mean   :20.6  
##  3rd Qu.:26298621   3rd Qu.:  5230   3rd Qu.:12.00   3rd Qu.:22.0  
##  Max.   :32819531   Max.   :500000   Max.   :24.00   Max.   :24.0  
##                                                                    
##      借款成功日期    初始评级      借款类型      是否首标   
##  2017-01-25:  3558   A: 10284   电商   :  1069   否:241090  
##  2017-01-20:  3063   B: 33188   普通   :118103   是: 87463  
##  2016-12-14:  2266   C:131705   其他   : 97302              
##  2016-12-02:  2033   D:134860   APP闪电:112079              
##  2017-01-09:  1859   E: 17027                               
##  2017-01-04:  1806   F:  1489                               
##  (Other)   :313968                                          
##       年龄       性别              手机认证            户口认证     
##  Min.   :17.00   男:221946   成功认证  :123007   成功认证  : 10105  
##  1st Qu.:24.00   女:106607   未成功认证:205546   未成功认证:318448  
##  Median :28.00                                                      
##  Mean   :29.14                                                      
##  3rd Qu.:33.00                                                      
##  Max.   :56.00                                                      
##                                                                     
##        视频认证            学历认证            征信认证     
##  成功认证  : 18501   成功认证  :114124   成功认证  :  9606  
##  未成功认证:310052   未成功认证:214429   未成功认证:318947  
##                                                             
##                                                             
##                                                             
##                                                             
##                                                             
##        淘宝认证      历史成功借款次数  历史成功借款金额    总待还本金     
##  成功认证  :  1152   Min.   :  0.000   Min.   :      0   Min.   :      0  
##  未成功认证:327401   1st Qu.:  0.000   1st Qu.:      0   1st Qu.:      0  
##                      Median :  2.000   Median :   5000   Median :   2542  
##                      Mean   :  2.323   Mean   :   8786   Mean   :   3722  
##                      3rd Qu.:  3.000   3rd Qu.:  10355   3rd Qu.:   5447  
##                      Max.   :649.000   Max.   :7405926   Max.   :1172653  
##                                                                           
##  历史正常还款期数   历史逾期还款期数 
##  Min.   :   0.000   Min.   : 0.0000  
##  1st Qu.:   0.000   1st Qu.: 0.0000  
##  Median :   5.000   Median : 0.0000  
##  Mean   :   9.948   Mean   : 0.4233  
##  3rd Qu.:  13.000   3rd Qu.: 0.0000  
##  Max.   :2507.000   Max.   :60.0000  
## 
##        ListingId         借款金额         借款期限         借款利率 
##                0                0                0                0 
##     借款成功日期         初始评级         借款类型         是否首标 
##                0                0                0                0 
##             年龄             性别         手机认证         户口认证 
##                0                0                0                0 
##         视频认证         学历认证         征信认证         淘宝认证 
##                0                0                0                0 
## 历史成功借款次数 历史成功借款金额       总待还本金 历史正常还款期数 
##                0                0                0                0 
## 历史逾期还款期数 
##                0

借款金额中位数是3397,最大值是500000,关注借款金额中的99%的数据,再次分析借款金额分布情况

主要的借款期限集中在12个月和6个月

借款利率大多分布在22%,20%,18%

25% 的用户年龄小于24岁,75% 的用户年龄小于33岁

用户初始评级大多为C级和D级

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     4.0   300.0   600.0   762.5  1000.0 70000.0

贷款总利息的平均值是762,中位数在600

lc$是否存在逾期 <- lc$历史逾期还款期数 >= 1
sum(lc$是否存在逾期)/dim(lc)[1]
## [1] 0.1533025

大约15%的借款用户存在逾期

单变量分析

你的数据集结构是什么?

数据集中有328553条数据,共有21个变量 对于数据单变量的观察,总结在分析图的下方。

你的数据集内感兴趣的主要特性有哪些?

主要感兴趣的特征为大约有15%用户存在逾期;以及不同年龄段和不同初始评级对借款金额对影响等。

你认为数据集内哪些其他特征可以帮助你探索兴趣特点?

我认为借款金额,借款期限,利息,用户年龄以及各项认证等特征,可以帮助判断哪些用户可能会逾期。

根据数据集内已有变量,你是否创建了任何新变量?

创造了3个新对变量,一个是布尔量,判断该用户是否存在逾期;另两个是计算该用户的总利息,以及总利息占借款金额比例。

在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做?

并没有对原数据做清理和调整。

双变量绘图选择

对’借款金额’,‘借款期限’,“借款利率”,“初始评级”,“借款类型” ,“年龄”,“是否存在逾期” 等变量抽样50000条数据做相关性分析.

## lc$初始评级: A
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.50   16.00   16.00   16.06   16.00   24.00 
## -------------------------------------------------------- 
## lc$初始评级: B
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      12      18      18      18      18      24 
## -------------------------------------------------------- 
## lc$初始评级: C
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   14.00   20.00   20.00   19.99   20.00   24.00 
## -------------------------------------------------------- 
## lc$初始评级: D
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   22.00   22.00   21.89   22.00   24.00 
## -------------------------------------------------------- 
## lc$初始评级: E
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.50   22.00   24.00   22.85   24.00   24.00 
## -------------------------------------------------------- 
## lc$初始评级: F
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   22.00   22.00   21.35   23.00   24.00

上图为不同评级对应的利率平均值情况,可以看出A评级的平均利率最低,评级为E的评级利率最高。

从上图中可得初始评级为A的评级年龄中位数最小,评级为E的平均年龄中位数最大

## 
##  Pearson's product-moment correlation
## 
## data:  年龄 and 借款金额
## t = 44.071, df = 328550, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.07326066 0.08005921
## sample estimates:
##        cor 
## 0.07666083

经上述分析可得,年龄和借款金额之间的相关性并不大。

## lc$是否存在逾期: FALSE
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2000    3462    4399    5447  500000 
## -------------------------------------------------------- 
## lc$是否存在逾期: TRUE
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2277    3217    4562    4745  500000

存在逾期的顾客年龄平均借款金额为4561,略大于没有逾期的顾客借款金额均值4399元。

## lc$是否存在逾期: FALSE
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      17      24      28      29      32      56 
## -------------------------------------------------------- 
## lc$是否存在逾期: TRUE
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.00   25.00   28.00   29.92   33.00   56.00

是否存在逾期与年龄的关系不强,存在逾期的顾客年龄平均值稍大。

双变量分析

探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?

“是否存在逾期”变量单独与其他变量的相关性并不大,计划尝试做逻辑回归分析其他变量与“是否存在逾期”存在的关系。

你是否观察到主要特性与其他特性之间的有趣关系?

有趣的关系在于初次评级于年龄之间的关系,原本以为最高评级A级的平均年龄应该相对较高。 实际数据中发现平均年龄最高的评级为E级,评级A级的用户平均年龄反而是最低的。

你发现最强的关系是什么?

相关最强的关系在初次评级和借款利率之间,其实是借款期限和借款利率之间的存在稍弱的正相关性。

多变量绘图选择

## `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'

分组来看是否逾期,在年龄和借款金额的关系上,两组差别并不大。

## lc$借款类型: 电商
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    3000   12000   50000  115368  177000  500000 
## -------------------------------------------------------- 
## lc$借款类型: 普通
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    3000    4679    5245    6500  120000 
## -------------------------------------------------------- 
## lc$借款类型: 其他
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2519    3329    4119    4720  500000 
## -------------------------------------------------------- 
## lc$借款类型: APP闪电
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100     934    1940    2765    4000   20000

从电商渠道借款,很难评级到A级,但电商渠道的借款金额平均值和中位数却是最高的,而且电商渠道中评级为B的用户,借款金额平均值会高过其他渠道的A级用户。 也可以看出从App闪电渠道借款,不仅借款金额均值较低,用户之间的借款金额差异也较其他渠道要大。 不同销售渠道借款金额差别还是很大的,接下来需要分析一下,借款类型是否会对利率有影响。

## lc$借款类型: 电商
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   15.00   16.00   16.12   18.00   20.00 
## -------------------------------------------------------- 
## lc$借款类型: 普通
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.50   20.00   22.00   20.98   22.00   24.00 
## -------------------------------------------------------- 
## lc$借款类型: 其他
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    6.50   20.00   20.00   20.51   22.00   24.00 
## -------------------------------------------------------- 
## lc$借款类型: APP闪电
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   16.00   20.00   20.00   20.33   22.00   24.00

可以看出电商渠道对借款利率均值,中位数,最大值都是最低的,这对电商对借款金额高做了一定的解释。

## 
## Call:
## glm(formula = 是否存在逾期 ~ ., family = binomial(link = "logit"), 
##     data = train)
## 
## Deviance Residuals: 
##        Min          1Q      Median          3Q         Max  
## -9.497e-06  -4.830e-06  -2.503e-06  -2.341e-06   1.451e-05  
## 
## Coefficients:
##                      Estimate Std. Error z value Pr(>|z|)
## (Intercept)        -2.500e+01  2.765e+04  -0.001    0.999
## 借款金额           -1.909e-06  1.091e-01   0.000    1.000
## 借款期限           -1.736e-02  2.448e+03   0.000    1.000
## 借款利率           -2.563e-02  1.181e+03   0.000    1.000
## 初始评级B           2.177e-02  8.576e+03   0.000    1.000
## 初始评级C           1.588e-01  8.104e+03   0.000    1.000
## 初始评级D           2.776e-01  8.903e+03   0.000    1.000
## 初始评级E           3.764e-01  9.704e+03   0.000    1.000
## 初始评级F           2.190e-01  1.356e+04   0.000    1.000
## 借款类型普通       -6.662e-03  1.040e+04   0.000    1.000
## 借款类型其他       -2.700e-02  1.068e+04   0.000    1.000
## 借款类型APP闪电    -1.637e-02  1.158e+04   0.000    1.000
## 是否首标是         -1.388e+00  3.859e+03   0.000    1.000
## 年龄                7.781e-03  1.695e+02   0.000    1.000
## 性别女              8.713e-02  2.519e+03   0.000    1.000
## 手机认证未成功认证 -2.714e-02  2.989e+03   0.000    1.000
## 户口认证未成功认证  9.115e-03  3.489e+03   0.000    1.000
## 视频认证未成功认证  9.809e-03  3.192e+03   0.000    1.000
## 学历认证未成功认证 -1.061e-02  2.412e+03   0.000    1.000
## 征信认证未成功认证  1.324e-02  4.374e+03   0.000    1.000
## 淘宝认证未成功认证 -1.122e-01  1.251e+04   0.000    1.000
## 历史成功借款次数    6.345e-03  1.039e+03   0.000    1.000
## 历史成功借款金额   -2.726e-07  2.531e-02   0.000    1.000
## 总待还本金          6.928e-07  1.130e-01   0.000    1.000
## 历史正常还款期数    4.869e-03  1.911e+02   0.000    1.000
## 历史逾期还款期数    4.847e+01  2.300e+03   0.021    0.983
## 贷款总利息          3.563e-05  1.058e+00   0.000    1.000
## 利息占本金比例      7.447e-01  1.418e+05   0.000    1.000
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 2.3122e+04  on 29999  degrees of freedom
## Residual deviance: 6.5194e-07  on 29972  degrees of freedom
## AIC: 56
## 
## Number of Fisher Scoring iterations: 25

尝试根据其他变量与是否逾期之间做逻辑回归,该回归模型中自变量的P值过大,该模型无法预测该用于是否存在逾期风险。

多变量分析

探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?

得出不同的借款渠道会影响借款利率,进而可以影响借款金额。该数据集中,电商渠道借款利率均值,中位数,最大值都是最低的,客户从电商的借款金额均值也远大于其他渠道。

这些特性之间是否存在有趣或惊人的联系呢?

从电商渠道借款,很难评级到A级,但电商渠道的借款金额平均值却是最高的,而且电商渠道中评级为B的用户,借款金额平均值会高过其他渠道的A级用户。 也可以看出从App闪电渠道借款,不仅借款金额均值较低,用户之间的借款金额差异也较其他渠道要大。

选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。

尝试根据其他变量与是否逾期之间做逻辑回归,该回归模型中自变量的P值过大,该模型无法预测该用于是否存在逾期风险。

定稿图与总结

绘图一

描述一

25% 的用户年龄小于24岁,75% 的用户年龄小于33岁

绘图二

描述二

20岁的用户借款金额较少,随后借款金额几乎不随年龄的变化而变化,年龄和借款金额之间的相关性并不大。

绘图三

描述三

从电商渠道借款,很难评级到A级,但电商渠道的借款金额平均值却是最高的,而且电商渠道中评级为B的用户,借款金额平均值会高过其他渠道的A级用户。 也可以看出从App闪电渠道借款,不仅借款金额均值较低,用户之间的借款金额差异也较其他渠道要大。 ——

反思

  1. 多复习之前的知识,并将相应的知识点应用在项目中。
  2. 多去看各种资料,此次项目中 R Cookbook 对我帮助很大。
  3. 抓紧时间去学习,工作、生活和学习之间安排要合理。
  4. 分析过程中做的重要决定,分析过程中所遇到的挫折与成功 通过自学R语言中的逻辑归回尝试分析哪些变量会影响是否产生逾期还款,对模型训练结束后,自变量的P值过大,无法很好的解释什么样的顾客有可能产生逾期。自己对于机器学习和 Feature Engineering的理解不是很深,这也激发我接下来的学习热情。
  5. 对这个数据的未来拓展工作提供了至少一个提议或问题。比如对于这个数据,我们还可以进行什么更近一步的分析工作呢?或者你还能够对这个数据提出什么问题? 下一步希望可以对该数据集做用户画像分析,可以使用聚类等方法分析出用户特征。随着我对机器学习的深入了解,我还会回到这个数据集中去练习机器学习相关技巧。